Мултимодален модел StepFun с отворен код Step3-VL-10B

На 20 януари StepFun обяви пускането с отворен код на Step3-VL-10B, мултимодален голям модел с 10 милиарда параметри. Въпреки сравнително компактния си размер, Step3-VL-10B постига най-съвременна (SOTA) производителност в рамките на своя клас параметри в широк диапазон от показатели, включително визуално възприятие, логически разсъждения, конкурентна математика и диалог с общо предназначение.

Само с 10B параметри, Step3-VL-10B се справя с дългогодишно предизвикателство в индустрията: балансиране на по-малък размер на модела с високи нива на интелигентност. В множество ключови оценки моделът съответства или дори надминава модели с отворен код, които са 10 до 20 пъти по-големи – като GLM-4.6V 106B-A12B и Qwen3-VL-Thinking 235B-A22B – както и водещи водещи модели със затворен код, включително Gemini 2.5 Pro и Seed-1.5-VL.

Благодарение на тази компактна, но мощна основа, сложни задачи за мултимодално разсъждение, които преди това изискваха внедряване в облака – като GUI операции, комплексно анализиране на документи и преброяване с висока точност – сега могат да се изпълняват директно на смартфони, компютри и дори индустриални вградени устройства.

Три основни акцента

Най-доброто в класа си визуално възприятие Step3-VL-10B осигурява най-високо ниво на разпознаване и точност на възприемане в рамките на своя диапазон от параметри. Чрез въвеждането на PaCoRe (паралелно координирано разсъждение), моделът постига качествен скок в надеждността при предизвикателни задачи като сложно броене, OCR с висока точност и разбиране на пространствената топология.
Дълбоко логично и дългосрочно разсъждение Чрез непрекъсната итерация с широкомащабно обучение с подсилване (RL), Step3-VL-10B демонстрира подобрения в стъпаловидни промени в разсъжденията между различни задачи в скала 10B. Той е в състояние да решава математически проблеми на ниво състезание, задачи за програмиране в реалния свят и визуални логически пъзели, използвайки строги, многостъпкови вериги на мисълта.
Мощно взаимодействие с агент на устройство Обучен на огромно количество данни за предварително обучение, специфични за GUI, моделът може точно да разпознава и работи със сложни графични потребителски интерфейси, което го прави основен двигател за агенти с изкуствен интелект на устройство.

Стъпка 3-VL-10B поддържа две парадигми на разсъждение — SeRe (Последователно разсъждение) и PaCoRe (Паралелно координирано разсъждение). В ключови измерения като STEM разсъждения, разпознаване, OCR и разбиране на документи, основа на GUI, пространствено разсъждение и код, моделът осигурява производителност, сравнима с модели със стотици милиарди параметри, като PaCoRe показва особено силни резултати.

Акценти на сравнителното представяне

STEM и мултимодално разсъждение

В бенчмаркове като MMMU и MathVision, Step3-VL-10B превъзхожда модели, включително GLM-4.6V и Qwen3-VL, демонстрирайки силни способности за „дълбока интелигентност“.

Състезателна математика

Моделът се отличава с показатели по математика, постигайки почти перфектни резултати на тестове като AIME 2024 и 2025, което го поставя твърдо сред най-добрите в света изпълнители. Това предполага способности за разсъждение, сравними с елитни човешки състезатели по математика, с по-голяма логическа строгост от много много по-големи модели.

2D/3D пространствено разсъждение

Step3-VL-10B показва изключителна производителност при множество бенчмаркове за пространствено разсъждение, включително BLINK, CVBench, OmniSpatial и ViewSpatial, значително превъзхождайки моделите от същия мащаб при задачи, изискващи както фино възприятие, така и сложна логика.

Код

В реални, динамични среди за програмиране, Step3-VL-10B надминава редица мултимодални модели от световна класа, подчертавайки неговите силни разсъждения и способности за изпълнение с общо предназначение.